(12) DEMANDE IN 



m 



ATIONALE PUBLIEE EN VERTU DU TRAITE 
EN MATIERE DE BREVETS (PCT) 



)OPERATION 



(19) Organisation Mondiale de la Propria 
Intellectuelle 

Bureau international 

(43) Date de la publication internationale 
31 juillet 2003 (31.07.2003) 




PCT 



23 JUL 2004 



(10) Numlro de publication internationale 

WO 03/063134 Al 



(51) Classification internationale des brevets 7 : G10L 19/00 (71) Deposant (pour tous les Etats designes sauf US) : TELED- 

IFFUSION DE FRANCE [FR/FR]; 10, rue d'Oradour- 



(21) Numero de la demande internationale : 

PCT7FR03/00222 

(22) Date de depdt international : 

23 janvier 2003 (23.01.2003) 



(25) Langue de depot : 

(26) Langue de publication : 



francais 
francais 



sur-Glane, F-75015 PARIS (FR). 
(72) Inventeur; et 

(75) Inventeur/Deposant (pour US seulement) : JOLY, 
Alexandre [FR/FR]; 61, rue de Tivoli, F-57070 METZ 
(FR). 

(74) Mandataires : CABINET ORES etc.; 36, rue de St Pe- 

tersbourg, F-75008 Paris (FR). 



(30) Donnees relatives a la prior ite : 

02/00856 24 janvier 2002 (24.01.2002) FR (81) Etats designes (national) : CA, SG, US. 



[Suite sur la page suivante] 



(54) Title: METHOD FOR QUALITATIVE EVALUATION OF A DIGITAL AUDIO SIGNAL 
(54) Titre : PROCEDE DEVALUATION QUALITATIVE D'UN SIGNAL AUDIO NUMERIQUE. 



J SYSTEMS A ETUDER 

{ (IMnau <te difTuxioa. tfqtopcincai. ...) 



SijnaJ 



vmnhnsnA 







!-*C 



1 REFERENCE SIGNAL 

2 CALCULATION OF PARAMETERS 

3 DATA PATH 

4 AUDIO SIGNAL 

5 PARAMETERS TO BE COMPARED 
Q PARAMETERS 

7 ESTIMATED NOTES 

8 SYSTEM TO BE EXAMINED 

9 CALCULATION OF PARAMETERS 

10 COMPARISONS 

11 CALCULATION OF PARAMETERS WITHOUT REFERENCE 

12 MODEL 

13 ESTIMATION OF QUALITY 

14 DEGRADED SIGNAL 



(57) Abstract: The invention relates to a method for qualitative evaluation of a digital audio signal, characterized in that a quality 
«^ indicator consisting of a vector associated with each time window is calculated in real and continuous time in successive time win- 
dows. The generation of said quality indicator vector involves, for example, the following stages for a reference audio signal and an 
audio signal to be evaluated: calculation of the spectral density of the power of the audio signal or calculation of the coefficients of a 
prediction filter by means of an autoregressive method, or calculation of the time activity of the signal or calculation of the minimum 
spectrum in successive blocks of the signal. The method can involve calculation of a distance between the vectors of the reference 



audio signal and the audio signal to be evaluated which are associated with each time window in order to evaluate the degradation 
— of the audio signal. 



(57) Abrege : L'invention concerne un precede" devaluation qualitative d'un signal audio numerique. D est caracterise* en ce qu'il 
met en uvre en temps reel et en temps continu dans des fenetres temporelles successives, le calcul d'un indicateur de quality constitue* 
par un vecteur associe" a 
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chaque fenetre temporelle.Notamment, la generation d'un dit vecteur indicateur de quality met par exemple enuvre pour un signal 
audio de reference et pour un signal audio a evaluer le calcul de la density spectrale de puissance du signal audio ou bien le calcul 
des coefficients d'un filtre de prediction par une methode autoregressive, ou bien encore le calcul d'une activity temporelle du signal 
ou bien encore du minimum du spectre dans des blocs successifs du signal.Le procecie* peut mettre enuvre le calcul d'une distance 
entre les vecteurs du signal audio de reference et du signal audio a ^valuer associ6s a chaque fenetre temporelle pour r6aliser une 
evaluation de la degradation du signal audio. 
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PROCEDE DEVALUATION QUALITATIVE D'UN SIGNAL AUDIO 
NUMERIQUE. 

La pr^sente invention a pour objet un proc6d6 devaluation d'un 
signal audio numerique, notamment un signal transmis numeriquement et/ou un signal 
5 numerique auqxiel a 6t6 applique un codage numerique, en particulier avec reduction 
de debit et/ou un decodage. Un signal transmis numeriquement peut Stre un signal 
audio autonome (radiodiffusion) ou bien d'un signal audio qui accompagne un 
programme tel qu'un programme audiovisuel. 

Le domaine des radiocommunications numeriques et de la 

10 radiodiffusion est en pleine expansion, notamment avec l'apparition de la television 
numerique et des radiotelephones. De nouveaux instruments doivent ainsi etre 
d^veloppes pour mesurer la quality de tous les systemes n^cessaires a la mise en 
ceuvre de cette technologie, et ainsi pouvoir assurer une quality de service. 

C'est dans ce but que sont utilises les tests subjectifs. Ces tests 

15 permettent de juger la qualite de signaux sonores en les faisant ecouter par des 
auditeurs, experts ou novices. Cette methode est longue et coiiteuse car les conditions 
a respecter lors de ces tests sont nombreuses et strictes (choix des panelistes, 
conditions d'ecoute, sequences, chronologie des tests, etc.). Elle permet neanmoins 
de constituer des bases de donnees de signaux de reference avec les notes qui leur ont 

20 £te attribuees. Ce sont ces tests qui permettent d'obtenir les notes "MOS" (Mean 
Opinion Score), notes qui sont reconnues comme etant la reference en matidre 
d'estimation de la qualite. 

Pour essayer de reduire au minimum le nombre de ces essais 
subjectifs, de nombreuses etudes ont et£ r^alisees sur le systeme d'audition humain. A 

25 partir de la, des moderations de l'oreille et des phenomenes psychoacoustiques ont 
ete developpees, ce qui a permis d'analyser puis estimer la qualite des signaux sonores 
par des methodes objectives. La qualite mesur£e etant celle perdue par Toreille 
humaine, elle est nommee qualite perceptuelle objective. 

II est possible de diff£rencier trois classes de methodes de 

30 qualification objective : La premiere ("reference complete' 1 ) compare directement le 
signal original au signal degrade (aprfes codage, diffusion, multiplexage,...), la 
seconde compare uniquement des parametres extraits des deux signaux (nommes 
reference reduite). Dans la troisieme, les defauts gener6s par la chaine de diffusion 
sont detectes k Taide de leurs principales caracteristiques connues. Cette derniere 

35 classe permet de s'affranchir des contraintes liees a l'utilisation du signal de reference. 
En effet, dans tous les autres cas, la reference doit 6tre transmise au lieu de 



WO 03/063134 




'CT/FR03/00222 



2 

comparaison puis parfaitement synchronis^e avec le signal degrade. Cela rend le 
systeme complexe et plus couteux. 

Les degradations dues aux erreurs de transmission diminuent de 
maniere importante la quality du signal. Elles apparaissent lors de la diffusion, d'un 
5 flux numerique MPEG par exemple ou lors de la diffusion, notamment de radio, sur 
Internet. 

Dans un tel contexte, il est souhaitable de disposer d'un proc^de qui 
permette de mesurer objectivement la quality d f un signal audio apres diffusion, sans 
utiliser de signal de reference et/ou en utilisant une reference reduite. En effet, seules 

10 ces techniques sont adaptees a la surveillance d'un r£seau de diffusion par exemple ou 
plusieurs points de mesure distants les uns des autres peuvent Stre n^cessaires. II est 
egalement interessant de profiter de la simplicity relative d'un tel proced6 pour 
mesurer la quality d'un signal audio numerique transmis ou non, qui a £te soumis a un 
codage numerique, notamment a reduction de debit, et/ou a un decodage. 

15 Le nombre de methodes de qualitometrie audio d^veloppees est tres 

variable selon la classe consid£ree. En effet, un grand nombre de methodes avec 
reference complete ont ete d^veloppees. Quelques methodes seulement ont ete mises 
au point sans reference ou avec reference reduite. 

Les methodes avec reference complete pour lesquelles le signal a 

20 ^valuer est compare au signal de reference correspondent aux techniques classiques 
utilises pour estimer la qualite des codeurs audio par exemple. Leur principe general 
se base sur le calcul, par rintermediaire d'un modele perceptuel d'audition, d'une 
representation interne du signal original et du signal degrade puis, sur une 
comparaison de ces deux representations internes. Une telle methode est decrite dans 

25 1'article de John G. BEERENDS et JAN A. STEMERDINK intitule "A Perceptual 
Audio Quality Measure Based on a Psychoacoustic Sound Representation", publie 
dans "Journal of Audio Engineering Society", vol. 12, Decembre 1992, pages 963 a 
978. 

Ces modeles d'audition sont etablis a partir d'experiences de 
30 masquage, afin d'obtenir une representation qui soit la plus fidele possible, et doivent 
pennettre de prevoir si les deteriorations seront audibles ou non. Toutes les 
degradations sur un signal ne sont pas audibles ni genantes. Ces modeles perceptuels 
avec reference se basent sur le schema de la Figure 1. De nombreuses methodes, plus 
ou moins completes et eiaborees, reposent sur ce principe. Recemment, l'algorithme 
35 PEAQ, (Method for objective measurements of PErceived Audio Quality) a ete 
normalise par TITU-R (Norme ITU-R BS.1387). Cet algorithme se base sur les 
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principes classiques en y associant un modele de prediction de la qualite utilisant un 
reseau de neurones. 

L'interet majeur de ces techniques est de pouvoir detecter de tres 
faibles degradations mais, il faut bien avoir a l'esprit qu'elles sont destinees a etudier 

5 l'influence d'un codage. Les mesures obtenues sont relatives : seule la difference est 
prise en compte dans ce type de mesures. Dans le cas d'un codeur de tres bonne 
qualite, un signal comportant des degradations importantes sera code puis decode de 
fa9on presque transparente, et done, la note attribuee sera tres haute. De plus, pour un 
signal qui aurait ete modifie (egalise, colore, ...) entre le calcul de la reference et la 

10 comparaison, la note pourra etre faible meme si les deux signaux sont de tres bonne 
qualite perceptuelle. 

En ce qui concerne les methodes sans reference, celles-ci restent tr£s 
peu nombreuses. La mesure OBQ (Output-Based Objective Speech Quality) est la 
plus aboutie des techniques sans reference. Cette methode d'estimation de la qualite, 

15 d'un signal de parole uniquement, sans signal de reference, se base sur le calcul de 
parametres perceptuels representant le contenu du signal, rassembies en un vecteur. 
Ces vecteurs, calcuies sur des signaux non degrades, vont constituer une base de 
reference. La qualite sera estimee en comparant les m6mes parametres, extraits des 
signaux degrades, aux vecteurs de la base de reference. La principale methode 

20 utilisant les reseaux de neurones est la mesure OSSQAR (Objective Scaling of Sound 
Quality And Reproduction). Le principe general de cette methode est d'utiliser un 
modele d'audition conjointement & un reseau de neurones. Le reseau est entraine k 
predire la qualite subjective d'un signal a partir de sa representation perceptuelle 
calcuiee par le modele d'audition, pour simuler les phenomenes de la 

25 psychoacoustique. II est a noter que les resultats obtenus par ces methodes, sont bien 
meilleurs quand les signaux font partie de la base d'apprentissage ou tout du moins 
quand ils ont des caracteristiques proches. 

De telles methodes ne sont done pas adaptees & revaluation de la 
qualite de signaux quelconques, par exemple les signaux audio d'une emission de 

30 radio ou de TV. 

Comme indique ci-dessus, la plupart des algorithmes de mesures 
perceptuelles objectives avec reference complete fonctionnent suivant un principe 
identique : il s'agit de comparer le signal sonore degrade au signal original (signal 
avant transmission et/ou codage et/ou decodage, appeie signal de reference). Ces 
35 algorithmes necessitent done d'avoir un signal de reference, qui soit de plus 
synchronise tres precisement avec le signal a tester. Ces conditions peuvent seulement 



WO 03/063134 




'CT/FR03/00222 



4 

etre remplies en simulation ou lors de tests de codeurs et autres systemes "compacts" 
ou non rEpartis geopraphiquement ; par contre, cela est trEs different lors de la 
reception d'un signal diffuse a partir d'antennes Remission A\ et de reception A2 
(Figure 2). 

5 Le signal de reference doit etre disponible aux differents points de 

comparaison. Aussi, pour pouvoir utiliser une m6thode avec reference complete, la 
seule possibility est de transmettre la reference, sans erreur, jusqu'aux points de 
comparaison, puis de la synchroniser parfaitement Pour des raisons d'encombrement 
du spectre et done de cout, ces techniques avec reference complete ne sont pas 

10 applicables en pratique, car elles n^cessiteraient l'utilisation d'une deuxteme voie de 
transmission transparente. 

Les methodes sans reference proposes permettent d'obtenir de bons 
resultats mais seulement dans le cas de signaux aux caract6ristiques connues et 
mod61is6es lors de la phase d'apprentissage. Les methodes sans reference fonctionnent 

15 done mal sur un signal quelconque. 

II a 6t6 sugg<5r6 d'utiliser une reference dite "reduite" dans laquelle le 
signal audio de reference est caracterise par un ou plusieurs nombres. Un tel procede a 
<§te dEcrit dans la Demande de Brevet fran9ais FR 2 769 777 d£pos6e le 13 Octobre 
1997. Cependant, ce procede ne permet pas de traiter tous les echantillons, en raison 

20 notamment du fait que le debit du signal de reference propose est trop important (au 
moins 36 kbits/s pour des fenetres de 1024 Echantillons de signal) pour satisfaire aux 
conditions pratiques d'implantation et de realisation dans un rEseau de telEdiffusion. 

La presente invention propose un proced6 selon lequel les 
indicateurs sont plus simples et peuvent etre calcules en temps reel et en temps 

25 continu, et demandent un debit binaire nettement moins eleve. Les degradations 
pouvant ne modifier que quelques Echantillons, tout en d6gradant la qualite de 
maniere importante, le proc£d£ propose permet que tout le flux audio soit analyst 

Le procede selon Tinvention permet une estimation fiable de la 
qualite d'un signal audio ayant transit^ par une transmission ou un codage de type 

30 numErique. En effet, les perturbations que subissent les canaux de transmission 
peuvent induire l'apparition d'erreurs sur les donnEes transmises ; ces erreurs se 
traduisent par des degradations au niveau du signal audio final. 

L'approche technologique proposEe consiste k effectuer une mesure 
sur le signal audio, a Tentree et une autre a la sortie la chaine ou tout autre systeme k 

35 etudier. Une comparaison entre ces mesures permet de s'assurer de la "transparence" 
du canal de transmission et d'Evaluer Pimportance des degradations introduites. 
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Utilis£e conjointement ou non avec des m6thodes sans reference, 
detectant les degradations en se basant sur la signature des caracteristiques des defauts 
les plus importants k rechercher, l'approche propos^e permet une estimation fiable des 
degradations introduites. Elle permet en outre de palier a un manque de signal de 

5 reference. Cette methode permet de reduire le debit de reference necessaire pour 
l'estimation de la qualite dans le cas des mesures avec reference reduite, et le nombre 
de parametres a utiliser dans le cas des mesures sans reference. 

L'invention conceme ainsi un procede devaluation d f un signal audio 
numerique, caracterise en ce qu f il met en oeuvre en temps reel et en temps continu, 

10 dans les fenetres temporelles successives, le calcul d'un indicateur de qualite constitue, 
pour chaque fenStre temporelle d'un vecteur dont la dimension est avantageusement au 
moins cent fois inferieure au nombre d'echantillons audio d'une fenStre temporelle. 
Cette dimension est par exemple comprise entre 1 et 10 et de preference entre 1 et 5. 

Le signal audio numerique a evaluer peut Stre un signal qui a ete 

15 transmis numeriquement et/ou qui a ete soumis a un codage numerique, notamment a 
reduction de debit, a partir d'un signal numerique de reference. 

Selon une premiere variante, mettant en oeuvre un ecart de comptes 
perceptuels, le procede est caracterise en ce que la generation d'un dit vecteur 
indicateur de qualite met en oeuvre pour un signal audio de reference et pour le signal 

20 audio a evaluer, les etapes suivantes : 

a) calculer pour chaque fenetre temporelle la densite spectrale de 
puissance du signal audio et lui appliquer un filtre representatif de 1 'attenuation de 
Poreille interne et moyenne, pour obtenir une densite spectrale filtree, 

b) calculer a partir de cette densite spectrale filtree les excitations 
25 individuelles a l'aide de la fonction d'etalement frequentiel dans l'echelle basilaire, 

c) determiner k partir desdites excitations individuelles la sonie 
compressee a l'aide d'une fonction modeiisant la sensibilite non lineaire en frequence 
de Poreille, pour obtenir des composantes basilaires, 

d) separer les composantes basilaires en classes, de preference en 
30 trois classes, et calculer pour chaque classe un nombre C representant la somme des 

frequences de cette classe, ledit vecteur etant constitu6 par lesdits nombres C, 

e) calculer une distance entre les vecteurs du signal audio de 
reference et du signal audio a evaluer associes k chaque fenStre temporelle pour 
realiser une dite evaluation de la degradation de signal audio. 

35 Selon une deuxieme variante, mettant en oeuvre une modeiisation 

auto-regressive du signal audio, le procede est caracterise en ce que la generation d'un 



WO 03/063134 



'CT/FR03/00222 



6 

dit vecteur indicateur de quality met en oeuvre, pour le signal audio de reference et 
pour le signal audio a evaluer, les Stapes suivantes : 

a) calculer N coefficients d'un filtre de prediction par une 
modelisation autoregressive . 

5 b) determiner dans chaque fenetre temporelle le maximum du residu 

par difference entre le signal predit a 1'aide du filtre de prediction et le signal audio, 
ledit maximum du residu de prediction constituant ledit vecteur indicateur de qualite, 

c) calculer une distance entre lesdits vecteurs du signal audio de 
reference et du signal audio a evaluer associes k chaque fenStre temporelle pour 

10 realiser une dite evaluation de la degradation du signal audio. 

Selon une troisieme variante, mettant en oeuvre une modelisation 
auto-regressive de Texcitation basilaire, le procede est caracterise en ce que la 
generation d'un dit vecteur indicateur de qualite met en oeuvre pour le signal audio de 
reference et pour le signal audio a evaluer, les etapes suivantes : 

15 a) calculer pour chaque fenetre temporelle la densite spectrale de 

puissance du signal audio et lui appliquer tin filtre representatif de l'attenuation de 
Poreille interne et moyenne, pour obtenir une fonction d'etalement frequentiel dans 
rechelle basilaire, 

b) calculer des excitations individuelles a partir de la fonction 
20 d'etalement frequentiel dans rechelle basilaire, 

c) obtenir a partir desdits excitations individuelles la some 
compressee a l'aide d'une fonction modeiisant la sensibilite non lineaire en frequence 
de Poreille, pour obtenir des composantes basilaires , 

d) calculer a partir desdites composantes basilaires N' coefficients 
25 de prediction d'un filtre de prediction par une modelisation autoregressive. 

e) generer pour chaque fenetre temporelle un dit vecteur indicateur 
de qualite a partir de certains seulement des N' coefficients de prediction. 

De preference, le vecteur indicateur de qualite comporte entre 5 et 
10 desdits coefficients de prediction. 
30 Selon une quatrieme variante, mettant en oeuvre vine detection de 

plats dans l'activite du signal, le procede est caracterise en ce que la generation d'un 
dit vecteur indicateur de qualite met en oeuvre au moins pour le signal audio k evaluer 
les etapes suivantes : 

a) calcul d'une activite temporelle du signal dans chaque fenetre 

35 temporelle, 
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b) calculer une moyenne glissante sur Ni valeurs successives de 
F activite temporelle, 

c) conserver la valeur minimale parmi Mi valeurs successives de la 
moyenne glissante. 

5 Le vecteur indicateur de qualite peut Stre constitue par ladite valeur 

minimale, ou bien encore par une valeur binaire resultant de la comparaison de ladite 
valeur minimale avec un seuil donne. Egalement, le procede peut etre caracterise en ce 
qu'il met en oeuvre le calcul d'une note de quality en determinant un intervalle de 
temps cumule pendant lequel ladite valeur minimale est inferieure a un seuil donne 

10 et/ou en determinant le nombre de fois par seconde ou ladite valeur minimale est 
inferieure a un seuil donne ou bien encore en ce que lesdites valeurs minimales sont 
genfrges k la fois pour le signal audio de reference et pour le signal audio a evaluer et 
en ce qu'un vecteur de qualite est genere par comparaison entre les valeurs minimales 
correspondantes du signal audio de reference et du signal audio a evaluer, par exemple 

15 en calculant la difference ou le rapport entre lesdites valeurs minimales. 

Selon une cinquieme variante mettant en oeuvre une detection des 
pics de Tactivite du signal audio, le procede est caracterise en ce que la generation 
d'un dit vecteur indicateur de qualite met en oeuvre au moins pour le signal audio a 
evaluer les etapes suivantes : 

20 a) calculer une activite temporelle du signal dans chaque fenetre 

temporelle, 

b) calculer une moyenne glissante sur N2 valeurs successives de 
F activite temporelle, 

c) conserver la valeur maximale parmi M 2 valeurs successives de 
25 la moyenne glissante. 

Le vecteur indicateur de qualite peut etre constitue par ladite valeur 
maximale ou bien par une valeur binaire resultant de la comparaison de ladite valeur 
minimale avec un seuil donne. 

Le procede peut 6tre caracterise en ce qu'un indicateur de 
30 degradation est genere par comparaison entre la valeur maximale obtenue sur le signal 
audio de reference et sa valeur maximale correspondante obtenue sur le signal audio a 
evaluer, par exemple en calculant la difference ou le rapport entre ces valeurs 
maximales. 

Selon une sixieme variante mettant en oeuvre le calcul de minimum 
35 du spectre du signal audio, le procede est caracterise en ce que la generation d'un dit 
vecteur indicateur de qualite met en oeuvre au moins pour le signal audio a evaluer le 
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calcul de la transform^ de Fourier dans des blocs successifs de N3 echantillons 
constituant desdites fenetres temporelles et calculer le minimum du spectre dans M3 
blocs successifs qui constituent un vecteur indicateur de quality. 

Le procede peut £tre caracterise en ce qu'il comporte une etape 

5 d 5 evaluation de Fintroduction de bruit dans le signal audio a ^valuer en comparant la 
valeur dudit minimum du spectre dans M 3 blocs successifs associes au signal audio a 
^valuer avec la valeur maximale des M 3 minima obtenues dans les M 3 m&nes blocs 
successifs associes signal audio de reference. 

D peut etre egalement caracterise en ce qu'il en ce qu'il comporte 

10 une etape devaluation de Pintroduction de bruit dans le signal audio a ^valuer en 
comparant la valeur dudit minimum du spectre dans M 3 blocs successifs avec une 
valeur moyenne des minima du spectre obtenus dans des blocs anterieurs aux M 3 blocs 
successifs, par exemple en calculant la difference ou le rapport entre ces valeurs 
moyennes. 

15 Selon une septidme variante, mettant en oeuvre une estimation de 

l'aplatissement du spectre du signal audio, le procede est caracterise en ce que la 
generation d'un dit vecteur indicateur de qualite met en oeuvre au moins pour le signal 
audio k evaluer le calcul d'un parametre d'aplatissement du spectre qui est le rapport 
entre une moyenne arithm£tique et une moyenne geom£trique des composantes du 

20 spectre du signal. 

Le procede peut Stre alors caracterise en ce qu'il met en oeuvre un 
indicateur de detection d'une degradation du signal audio par introduction d'un bruit 
large bande en comparant ledit parametre d'aplatissement du spectre entre le signal 
audio de reference et le signal audio a evaluer, par exemple en calculant la difference 
25 ou le rapport entre ces deux parametres. 

D'autres caracteristiques et avantages de l'invention apparaJtront 
mieux a la lecture de la description ci-apres en liaison avec les dessins dans lesquels : 

- la figure 1 est un organigramme illustrant une evaluation de qualite 
a reference complete. , 

30 - la figure 2 illustre une transmission audio avec perte de qualite, 

- les figures 3 k 10 illustrent des procedes devaluation selon la 
presente invention, 

- et les figures 11 et 12 illustrent un systeme de qualitometrie audio 
mettant en oeuvre la presente invention. 
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La gestion et la recuperation des erreurs au decodage n'est pas 
normalises L'influence de ces erreurs sur la quality per9ue depend done du decodeur 
utilise. 

L'audibilite de ces defauts est egalement li£e au type d'eiement 
5 affecte dans la trame, par exemple MPEG, et a son contenu audio. 

Dans le cas d'erreurs importantes dues a la transmission, la qualite 
du signal diminue fortement. Ces degradations apparaissent lors de la diffusion, d ! un 
flux num£rique MPEG par exemple, et sont, la plupart du temps, de type 
impulsionnel. Elles peuvent egalement apparaitre lors de la diffusion d'un flux audio 
10 sur le reseau Internet, ou lors d'un codage ou d'un decodage. 

Pour ce type de defaut, la qualite peut etre estimee de fa9on binaire : 
soit le signal n'a pas ete degrade et la qualite dependra du codage initial utilise, soit 
des erreurs ont ete introduites et des degradations importantes apparaissent. 

L'estimation de la qualite peut alors se faire par des methodes sans 
15 reference, en comptabilisant les degradations d6tectees sur des intervalles de temps 
reguliers de l'ordre par exemple de la seconde. Des essais subjectifs ont en effet 
permis d'obtenir une estimation fiable de la qualite per?ue, a partir du nombre et de la 
longueur des interruptions liees a des degradations de type impulsionnel dans un 
signal. 

20 Pour les mesures obtenues avec reference reduite, la methode 

proposee permet de reduire le debit necessaire au transport de la reference. Cela 
autorise l'utilisation de voies reservees au debit relativement limite. Ces mesures 
permettent de detecter des degradations autres que les celles dues aux erreurs de 
transmission. 

25 Ainsi, la presente invention permet une reduction du debit dans le 

cas des mesures avec reference reduite et, de par l'ajout de mesures simples sans 
reference, de conserver des mesures sur les degradations importantes dans le cas d'une 
perte de la reference par exemple, en g6nerant localement un vecteur qui caracterise 
simplement les degradations, et qui pourrait done etre facilement traite et transmis 

30 vers une installation de contrdle, notamment centralisee. 

Les mesures effectuees le long de la chaine et en divers points du 
reseau, informent le systeme de surveillance et de gestion de la diffusion en television 
numerique, sur ses performances globales. Les mesures des degradations du signal 
informent Toperateur de diffusion sur la qualite de service deiivree. 

35 Le procede se caracterise par deux modes de fonctionnement, 

compiementaires : 
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Avec reference reduite. L'approche technologique propos^e consiste 
a effectuer une mesure sur le signal audio, k P entree, et une autre a la sortie de la 
chaine de transmission ou tout autre systeme a etudier (codeur, decodeur, etc...)- Une 
comparaison entre ces mesures permet de s' assurer de la "transparence" de la chaine 
5 ou du systeme et d'evaluer Pimportance des degradations introduces. A la difference 
de la technique anterieure : 

le proced6 effectue une evaluation en temps reel et en temps 

continu. 

- les mesures de reference a P entree de la chaine represented une 
10 quantite de donn6es trds faible par rapport aux donn^es du signal audio, d'ou sa 

classification en « reference reduite ». 

- les donnSes ou mesures de reference utilis6es sont aussi bien une 
representation rSduite du contenu du signal, qu'une mesure de Pimportance d'un type 
de degradation. 

15 L'invention permet de palier a un manque de signal de reference. 

Pour cela, le procede d&finit des mesures pour les defauts numeriques caracteristiques 
a rechercher. A la difference de la technique anterieure, Tapproche proposee permet 
une estimation des degradations introduces sur un signal quelconque, et de maniere 
fiable et cette approche peut etre mise en ceuvre aussi bien a Techelle d'un reseau de 

20 transmission que localement sur un equipement. En outre, la complexity de calcul 
selon le proc6de est faible, et l'indicateur obtenu repr6sente une quantity de donn^es 
faible par rapport au flux numerique audio. 

Enfin, le procede peut etre applique indifKremment & des signaux 
purement numeriques ou a des signaux ayant subi apres transmission une conversion 

25 numerique vers analogique puis analogique vers numerique. 

Les trois premiers procede decrits ci-apres sont du type dit "avec 

reference reduite". 

Pour obtenir une plus grande precision de l'estimation de la quality, 
certains des parametres developpes utilisent des moderations perceptuelles : Le 

30 principe des mesures perceptuelles objectives se base sur la transformation de la 
representation physique (pression acoustique, niveau, temps et frequence) en la 
representation psychoacoustique (force sonore, niveau de masquage, temps et bandes 
critiques ou barks) de deux signaux (le signal de reference et le signal a evaluer) afin 
de les comparer. Cette transformation s'opere grace a une modelisation de Pappareil 

35 auditif humain (generalement, cette modelisation consiste en une analyse spectrale 
dans le domaine des Barks suivie des phenomenes d'etalement). Une distance peut 
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alors etre calcuiee entre les representations psychoacoustiques des deux signaux, 
distance que Ton peut Her a la quality du signal a 6valuer (plus la distance est faible, 
plus le signal k ^valuer est proche du signal original et meilleure est sa quality). 

Le premier procede met en oeuvre un parametre denomm6 "£cart de 
5 Comptes Perceptuels". 

Le calcul de ce parametre se decompose en plusieurs Stapes, 
n£cessaires pour tenir compte de la psychoacoustique. Celles-ci sont appliquees sur le 
signal de reference et sur le signal degrade. Ces etapes sont les suivantes : 

Fenetrage du signal temporel en blocs puis, pour chacun des blocs, 
10 calcul de l'excitation induite par le signal en utilisant un module d'audition. Cette 
representation des signaux tient compte des phenomenes de la psychoacoustique, et 
fournit un histogramme dont les comptes sont les valeurs des composantes basilaires. 
Cela permet de ne prendre en consideration que les composantes audibles du signal et 
done de se limiter a rinformation utile. Pour obtenir cette excitation, les 
15 mod£lisations classiques peuvent etre utilisees : attenuation de Toreille externe et 
moyenne, integration selon les bandes critiques et masquages frequentiels. Les 
fenetres temporelles choisies sont d'environ 42 ms (2048 points k 48 kHz) avec un 
recouvrement de 50%. Cela permet d'obtenir une resolution temporelle de l'ordre de 
21 ms. 

20 Plusieurs etapes sont necessaires pour cette modelisation. Pour la 

premiere etape, le filtre d'attenuation de Toreille exteme et moyenne est applique a la 
densite spectrale de puissance, obtenue a partir du spectre du signal. Ce filtre prend 
egalement en compte le seuil absolu d ! audition. La notion de bandes critiques est 
modeiisee par une transformation de redielle frequentielle en une echelle basilaire. 

25 L'etape suivante correspond au calcul des excitations individuelles pour tenir compte 
des phenomenes de masquage, grace a la fonction d f etalement frequentiel dans 
rechelle basilaire et k une addition non lineaire. La derniere etape permet d'obtenir la 
sonie compress^e, par une fonction puissance, pour modeiiser la sensibilite non 
lineaire en frequence de Toreille, par un histogramme comportant les 109 composantes 

30 basilaires. 

Les comptes de rhistogramme obtenu sont ensuite rassembies en 
trois classes. Cette vectorisation permet d'obtenir une representation visuelle de 
revolution de la structure des signaux. Cela permet egalement d'obtenir une 
caracterisation simple et concise du signal et done de disposer d f un parametre de 
3 5 reference particulierement interessant. 
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Plusieurs strategies existent pour fixer les bornes de ces trois 
comptes : La plus simple est de s6parer rhistogramme en trois zones de tailles 6gales. 
Ainsi, les 109 composantes basilaires, (ou les 24 composantes qui constituent 
l'excitation et en constituent une representation simpliftee) repr£sentent 24 Barks et 
5 peuvent etre s6par6es aux indices suivants : 

Si = 36 soit z=— *36 = 7,927 Barks (1) 



10 



15 



S 2 = 73 soit z = * 73 = 1 6,073 Barks (2) 

La deuxieme strat6gie prend en compte les zones de mise a 
Techelle ("scaling") de Beerends. En effet une compensation du gain entre 
l'excitation du signal de reference et celle du signal a tester est effectuee par 
Toreille. les bornes fixees sont alors les suivantes : 

Si =9 soit z =— *9 = l,982 Barks (3) 
109 

S 2 = 100 soit z = — *100 = 22,018 Barks (4) 
109 



La trajectoire est ensuite representee dans un triangle, nomme 
20 triangle des frequences. Pour chaque bloc on obtient trois comptes Ci, C 2 et C3, done 
deux coordonn^es cartesiennes selon les formules suivantes : 

X = C,/N+^ (5) 

Y = C 2 /N*sin(7c/3) (6) 

25 avec Cj : somme des excitations basilaires pour les hautes 

frequences (au-dessus de S 2 ) 
C2 : compte assocte aux frequences moyennes (composantes 
entre Si et S 2 ) 

etiV= Cj+ C2+ C3 : Somme totale des valeurs des composantes. 

30 

Un point (X, Y) constituant un vecteur est done obtenu pour chaque 
fenetre temporelle du signal, ce qui correspond a la transmission de deux valeurs par 
fenetre de par exemple 1024 bits, soit un debit de 3 kbits/s pour un signal audio 
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6chantillonne k 48 kHz. Pour une sequence complete, la representation assoctee est 
ainsi une trajectoire param£tr6e par le temps, comme le montre la Figure 3. 

On calcule ensuite de la distance (euclidienne) entre le signal de 
reference et le signal degrade. Dans le cas d'une estimation de la qualite en continu, la 
5 distance entre les points permet d'estimer Timportance des degradations introduces 
entre le signal de reference et le signal degrade Cette distance peut 6tre consid6r6e 
comme une distance perceptuelle du fait de Tutilisation des modeles de la 
psychoacoustique. 

Pour estimer une note de quality pour un signal de plusieurs 
10 secondes, il est possible de calculer une mesure globale de la difference entre les deux 
signaux. Pour cela plusieurs metriques sont utilisables. Celles-ci peuvent etre de type 
diffus (moyenne des distances entre les sommets, aire interceptee, ...), locale 
(maximum, minimum des distances entre sommets, ...) et dependre de la position 
dans le triangle. 

15 II est egalement possible de prendre en compte les differences a 

peine perceptibles ("Just Noticeable Difference"). Ces seuils permettent de determiner 
Taudibilite des differences qui sont apparues. lis peuvent §tre modelis£s par des zones 
de tolerance fonction de la position dans le triangle pour tenir compte de la variability 
des phenomenes de masquage. 

20 Dans tous les cas, les deux trajectoires doivent Stre synchronis6es au 

pr6alable. 

Le principe du calcul de ce parametre comparatif peut etre ainsi 

resume par le schema Figure 4. 

Le principal avantage du parametre provient du fait de la prise en 
25 compte des phenomenes de la psycho-acoustique sans pour autant augmenter le debit 
necessaire au transfert de la reference. Celui-ci permet de reduire la reference a 2 
valeurs pour 1024 echantillons de signal (3 kbits/s). 

Le deuxieme procede met en oeuvre une modeiisation autoregressive 

du signal. 

30 Le principe general de la prediction lineaire est de modeiiser le 

signal comme etant une combinaison de ses valeurs passees. L'idee est de calculer les 
N coefficients d'un filtre de prediction par une modeiisation autoregressive (tout p61e). 
Avec ce filtre adaptatif, il est possible d ! obtenir un signal predit a partir du signal reel. 
Les erreurs de prediction ou residus sont calcuies par difference entre ces deux 

35 signaux. La presence et la quantite de bruit dans un signal peuvent Stre determinees 
par Tanalyse de ces residus. 
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La comparaison des residus .obtenus sur le signal de reference et 
ceux calcutes a partir du signal d6grad6, et done des niveaux de bruit, permet d'estimer 
rimportance des modifications et d&fauts inseres. 

La reference a transmettre correspond au maximum des residus sur 

5 une fenetre temporelle de taille donnee. II n'est en effet pas int6ressant de transmettre 
tous les residus si le debit de la reference veut etre reduit. 

Pour adapter les coefficients du filtre de prediction, deux m&hodes 
sont donn6es ci-apres a titre d'exemple : 

- L'algorithme de LEVINSON-DURBIN qui est d6crit par 

10 exemple dans Touvrage de M. BELLANGER - Traitement numerique du signal - 
Th<§orie et pratique (MASSON 6d. 1987) p. 393 a 395. Pour l'utiliser, il faut disposer 
d'une estimation de l'autocorr&ation du signal sur un ensemble de No echantillons. 
Cette autocorrelation est utilis^e pour resoudre le systeme d'Squations de Yule-Walker 
et ainsi obtenir les coefficients du filtre predicteur. Seules les N premieres valeurs de 

15 la fonction d'autocorr&ation peuvent etre utilises, ou N d6signe l'ordre de 
Talgorithme, e'est-a-dire le nombre de coefficients du filtre. Sur une fenetre de 1024 
Echantillons, on garde le maximum de l'erreur de prediction. 

L'algorithme du gradient qui est decrit pax exemple dans 
l'ouvrage precite de M. BELLANGER p. 371 et suivantes. Le principal inconvenient 

20 du parametre precedent est la n^cessite, dans le cas d'une implantation sur DSP, de 
stocker les N 0 echantillons pour estimer l'autocoir61ation, avoir les coefficients du 
filtre puis calculer les residus. Ce second parametre permet d'eviter cela en utilisant un 
autre algorithme permettant de calculer les coefficients du filtre : l'algorithme du 
gradient. Celui-ci utilise 1'erreur commise pour mettre a jour les coefficients. Les 

25 coefficients du filtre sont modifies dans la direction du gradient de l'erreur quadratique 
instantan^e, avec le signal oppos6. 

Une fois les residus obtenus par difference entre le signal pr^dit et le 
signal reel, seul le maximum de leurs valeurs absolues, sur une fenetre temporelle de 
taille donn6e T, est conserve. Le vecteur ntfSrence k transmettre peut ainsi 6tre r6duite 

30 k un seul nombre. 

Aprds transmission puis synchronisation, la comparaison consiste en 
un simple calcul de distance entre les maxima de la reference et du signal d6grad6 par 
exemple par difference. 

La Figure 5 resume le principe de calcul de parametre : 
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Le principal avantage des deux param&res est le debit necessaire au 
transfert de la reference. Celui-ci permet de reduire la reference a 1 nombre reel pour 
1024 echantillons de signal. 

Par contre, aucun modele de la psychoacoustique n'est pris en 

5 compte. 

Le troisieme proc^de met en oeuvre une modeiisation autoregressive 
de 1'excitation basilaire. 

Par rapport a la prediction lineaire classique, cette methode permet 
de prendre en compte les phenomenes de la psychoacoustique, afin d'obtenir une 

10 Evaluation de la qualite per9ue. Pour cela, le calcul du parametre passe par une 
modeiisation de divers principes de l'audition. Une prediction lineaire modeiise le 
signal comme etant une combinaison de ses valeurs passees. L'analyse des r6sidus (ou 
erreurs de prediction) permet de determiner et d f estimer la presence de bruit dans un 
signal. L ! inconvenient majeur lors de Tutilisation de ces techniques est le fait qu f il n f y 

15 ait aucune prise en compte des principes de la psychoacoustique. Ainsi, il n'est pas 
possible d'estimer la quantite de bruit reellement per9ue. 

Le procede reprend le principe general de la prediction lineaire 
classique. Elle y integre en plus les phenomenes de la psychoacoustique pour Tadapter 
a la sensibilite non lineaire en frequence (sonie) et en intensite (tonie) de l'oreille 

20 humaine. 

On modifie le spectre du signal, par rintermediaire d'un module 
d'audition, avant de calculer les coefficients de la prediction lineaire par une 
modeiisation autoregressive (tout pole). Les coefficients ainsi obtenus permettent de 
modeiiser le signal de fa9on simple tout en tenant compte de la psychoacoustique. Ce 

25 sont ces coefficients de prediction qui seront transmis et serviront de reference lors de 
la comparaison avec le signal degrade. 

La premiere partie du calcul de ce parametre correspond a la 
modeiisation des principes de la psychoacoustique en utilisant les modules d'auditions 
classiques. La deuxieme partie est le calcul des coefficients de prediction lineaire. La 

30 derniere partie correspond a la comparaison des coefficients de prediction calcuies 
pour le signal de reference et ceux obtenus pour le signal degrade. Les differentes 
etapes de cette methode sont done les suivantes : 

- Fenetrage temporel du signal puis calcul d'une representation 
interne du signal par modeiisation des phenomenes de la psychoacoustique. Cette 

35 etape correspond au calcul de la sonie compressee, qui est en fait Texcitation induite 
par le signal au niveau de l'oreille interne. Cette representation des signaux tient 
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compte des phenom&nes de la psychoacoustique, et est obtenue a partir du spectre du 
signal, en utilisant les moderations classiques : attenuation de l'oreille exteme et 
moyenne, integration selon les bandes critiques et masquages frequentiels. Cette 
etape du calcul est identique au parametre decrit precedemment ; 

5 - Modelisation autoregressive de cette sonie cornpress^e afin 

d'obtenir les coefficients d ! un filtre RTF de prediction, tout comme dans une 
prediction lin6aire classique. La m&hode utilis^e est celle de l'autocorreiation, par 
resolution des equations de Yule-Walker. La premiere etape pour l'obtention des 
coefficients de prediction est done le calcul de l'autocorreiation du signal. 

10 En consid6rant la sonie compressee comme une puissance spectrale 

filtree, il est possible de calculer l'autocorreiation du signal per9U par transformation 
de Fourier inverse. 

Une des methodes pour resoudre ce systeme d'equations de Yule- 
Walker et ainsi obtenir les coefficients d'un filtre predicteur est Tutilisation de 

1 5 Talgorithme de Levinson-Durbin. 

Ce sont les coefficients de prediction qui constituent le vecteur de 
reference a transmettre jusqu ? au point de comparaison. Les transformations utilisees 
lors du calcul final sur le signal degrade, sont les memes que pour la phase initiale sur 
le signal de reference. 

20 - Estimation des degradations par le calcul d'une distance entre les 

vecteurs issus de la reference et du signal degrade. C'est une comparaison des 
vecteurs de coefficients obtenus pour la reference et pour le signal audio transmis, qui 
pennet d'estimer les degradations introduces lors de la transmission. Celle-ci doit se 
faire sur un nombre adapte de coefficients. Plus le nombre est important, plus les 

25 calculs peuvent etre precis, mais plus le debit necessaire a la transmission de la 
reference est eieve. Plusieurs distances peuvent Stre utilisees pour comparer les 
vecteurs de coefficients. L'importance relative des coefficients peut par exemple etre 
prise en compte. 

Le principe de la methode se resume selon le schema suivant (Figure 

30 6). 

La modelisation des phenomenes de la psychoacoustique permet 
tfobtenir 24 composantes basilaires. L'ordre N du filtre de prediction est de 32. A 
partir de celles-ci, 32 coefficients de Tautocorreiation sont estimes, ce qui donne 32 
coefficients de prediction dont on ne conserve que 5 a 10 coefficients en tant que 
35 vecteur indicateur de qualite, par exemple les 5 k 10 premiers coefficients . 
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Le principal avantage du paramdtre provient de la prise en compte 
des phenomenes de la psychoacoustique. Pour faire cela, il a ete necessaire 
d'augmenter le debit necessaire au transfert de la reference a 5 ou 10 valeurs pour 
1024 echantillons de signal (21 ms pour un signal audio echantillonne a 48 kHz), soit 

5 un debit de 7,5 a 1 5 kbits/s. 

Les methodes suivantes peuvent etre utilisees avec ou sans 
reference. Cela permet de conserver des mesures de detection des degradations les 
plus importantes, meme dans le cas ou aucun parametre de reference riest disponible 
au point de contrSle, au moment ou la comparaison devrait etre effectuee. 

10 La premiere de ces methodes met en oeuvre une detection de plats 

dans l'activite du signal. 

La notion d'activite, qui peut etre approximee par une operation de 
derivation dans le signal audio, est utilisee pour reperer les ruptures et interruptions 
dans le signal temporel. 
15 Ces types de defauts sont caracteristiques d'erreurs de d£codage 

aprds transmission du flux numerique audio ou lors de la diffusion de sequences 
sonores sur Internet. Cela se produit quand le debit du reseau devient insuffisant pour 
assurer rarrivee de toutes les trames n^cessaires k Tinstant du decodage par exemple. 

Ces degradations, qui introduisent des zones d'activite tres faible, se 
20 traduisent au niveau auditif par differentes sensations chez 1'auditeur : coupure du son, 
flou sonore, bruit impulsionnel... 

La premiere etape du calcul du param6tre correspond a Testimation 
de l'activite temporelle du signal. Pour ce faire, l'operateur de derivee seconde est 
utilise. II permet en effet d'avoir une estimation suffisamment precise de l'activite et 
25 ne demande que tres peu de calculs. 

Pour simuler de fa9on simple cette operation de derivee seconde, la 

formule suivante est utilisee : 

f ,, (xo)=f(^o+2)-2.f(x 0 )+f(x 0 -2) (7) 

30 OU 

f"(x 0 )= f(x 0 +l)-2J(x 0 )+f(x 0 -l) (8) 

oixf(t) correspond a la valeur de l'echantillon a l'instant t. 
Une moyenne glissante, sur N valeurs (par exemple N = 21, ce qui 
35 correspond a 0,5 ms pour une frequence d ! echantillonage de 48 KHz), permet ensuite 
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de lisser les variations de la courbe obtenue et eviter ainsi les fausses detections. Un 
seul r^sultat va £tre conserve par bloc de M r£sultats (M correspond par exemple k 
2048 6chantillons audio). C'est le minimum de M moyennes qui est conserve puis 
transmis. Le parametre est ainsi obtenu a Tinstant t par la formule suivante : 



P 1 at s (t ) = miri f — £ I y (t - k - i 1 



v 

o\iy(t) correspond a l f activity. 



(9) 



Si le parametre est utilise avec reference, alors, apres 
10 synchronisation des donnees, Tetape de comparaison consiste en une simple difference 
qui permet de reperer les zones ou le signal a ete remplace par des plats de decodage. 
Seuls les instants, ou l'activite est fortement diminuee sur le signal degrade, sont 
int&ressants. Ainsi la formule de comparaison est la suivante : 

15 d(t)= max(0, Plats r (t)- Plats d (t)) (10) 



ou Plats r (t) et Plats d (t) sont respectivement le parametre 
calcule sur la reference et sur le signal degrade. 



20 Pour reduire encore le debit necessaire au transport de la reference, 

il est egalement possible de comparer le parametre Platsft), calcule sur le signal, avec 
un seuil S et ainsi obtenir un parametre binaire. Lors de Fapparition des degradations, 
la chute d'activite est en effet suffisamment importante pour etre detectee de la sorte. 

Dans ce cas, la comparaison sert uniquement a confirmer la presence 
25 des degradations. Plus aucune confusion n'est possible entre les zones de silence et les 
zones d'activite faible du signal. L'utilisation du parametre sans reference permet 
neanmoins de reperer les degradations. 

Pour passer d'un parametre de detection des degradations, k 
Testimation d'une note de qualite perceptuelle, Timportance psychoacoustique des 
30 degradations detectees doit Stre analysee. Suivant leur longueur et leur nombre la 
degradation per?ue sera tres differente. 

L'etape suivante consiste done a utiliser des courbes de 
correspondance k partir du parametre binaire. Ces courbes permettent d'obtenir une 
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note de quality a partir de la longueur cumuiee et du nombre de degradations 
* impulsionnelles detectees par seconde. Ces courbes sont etablies a partir de tests 

subjectifs. Differentes courbes peuvent etre etablies en fonction du type des signaux 

audio (parole ou musique principalement). Une fois l'estimation obtenue, il est 
5 egalement possible d'utiliser un filtre simulant la reponse d ! un pan61iste. Cela permet 

de tenir compte de l'effet dynamique des votes et des temps de reaction face aux 

degradations. 

Le parametre peut etre resume selon le schema suivant Figure 7. 
Le principal avantage du parametre est la possibility de faire des 
10 mesures sans reference. Un autre point interessant est le debit n^cessaire au transfert 
de la reference. Celui-ci permet de reduire la reference a 1 nombre reel soit un debit 
de 1,5 kbits/s(voire mSme 1 bit en cas de seuillage soit un debit de 47 bits/s) pour 
1024 echantillons de signal. II est egalement a noter que Talgorithmes est tr£s simple 
et de complexite reduite, ce qui permet son implantation en paralieie avec d'autres 
15 parametres. 

Le deuxieme de ces precedes met en oeuvre une detection de pics de 

l'activite. 

Ce parametre, tout comme le precedent est base sur l'activite du 
signal. Celui-ci permet de detecter les decrochages, ruptures, coupures d'une partie du 
20 signal audio et les echantillons aberrants en recherchant les pics dans l'activite du 
signal. 

Ainsi, cette fois, seuls les maxima pour des blocs de M echantillons 
sont conserves. II n'est pas interessant de transmettre puis comparer la totalite des 
valeurs de l'activite, principalement si 1'objectif est d'obtenir une methode ne 
25 necessitant qu'une reference reduite. 

Le parametre est ainsi obtenu a Tinstant t par la formule suivante : 

ActTemp (t) = max {y(t - kj) (1 1) 

o\xy(t) est l'activite du signal calcuiee par le filtre. 

30 

Dans le cas d'une utilisation avec reference, ce meme calcul est 
effectu6 sur le signal de reference et sur le signal degrade. 

Apres synchronisation des deux flux, la comparaison de ces maxima 
35 de Tactivite permet de detecter les zones ou le signal a ete perturbe. 
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Pour effectuer cette comparaison, le rapport entre la valeur mesuree 
sur la reference et celle obtenue sur le signal degrade permet la detection des 
degradations. II est possible de detecter les zones ou l'activite a 6t6 fortement diminuee 
en choisissant le maximum du rapport et de son inverse. 
5 La formule suivante est utilisee : 



( ActTemp d (t) ActTemp (t)^ 

dft)=max ^ty, —rx V 1Z J 

V } [ ActTemp r (t) ActTemp d (t) J 

ou ActTemp r (t) et ActTemp d (t) sont respectivement le parametre 
10 calcuie sur la reference et sur le signal degrade. 

Dans le cas ou la reference n'est pas disponible, il est possible 
d'utiliser un seuillage pour detecter si le parametre est superieur k un seuil S', ce qui 
indique la presence de degradations. Pour eviter de fausses detections dues a des 

15 signaux au caractdre impulsionnel (attaques, percutions, ...), le seuil doit avoir une 
valeur assez importante, ce qui peut entrainer des non detections. 

De meme que dans le cas precedent, Tutilisation des courbes de 
correspondance est possible pour estimer une qualite perceptuelle. La m6thode 
consiste a integrer les degradations detecttes par ce parametre, aux autres trouv6es par 

20 le parametre precedent par exemple, et ainsi obtenir une estimation perceptuelle 
globale. 

Le principe du parametre est presente dans le schema suivant Figure 

8. 

Tout comme pour le parametre precedent, l'avantage du parametre 
25 reside dans la possibility de faire des detections sans reference. 

La complexite reduite et le faible debit necessaire au transport de la 
reference, limite a 1 valeur, soit un debit de 1,5 kbits/s (voire meme 1 bit en cas de 
seuillage, soit un debit de 47 bits/s) pour 1024 echantillons de signal echantillonne k 
48 kHz, sont egalement des points interessants. 
30 Le precede ci-apres met en ceuvre retude du minimum du spectre du 

signal pour localiser les degradations. 

II est principalement utile pour la detection de degradations dites 
"impulsionnelles". II est en effet important de noter que la majorite des degradations 
introduces, lors de la transmission d'un signal audio, sont de ce type. Celles-ci sont 
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tres localisees en temps et tres etalees en frequence. Ainsi, en les assimilant a un bruit 

blanc large bande de tres courte duree dans le signal, il est possible de les detecter en 

analysant les caracteristiques du spectre. 

La premiere etape du calcul de ces parametres correspond a 
5 l'estimation du spectre du signal. Pour cela, le signal est fenetre en blocs de N 

echantillons (N = 1024 ou 2048 par exemple), avec un recouvrement de N/2 

echantillons. Cela permet d'avoir une resolution temporelle suffisante et d'analyser 

tout le signal, en tenant compte du fait que l'utilisation des fenetrages attenue 

fortement l'influence des bords de ces fenetres temporelles. 
10 Cela permet 6galement de ne pas trop penaliser le temps de calcul 

lors de rimplantation. Une transformation de Fourier rapide permet, ensuite, de passer 

dans le domaine frequentiel. 

L'apparition d'une degradation, augmente le minimum du spectre, du 

fait de l'introduction de bruit blanc large bande dans toutes les composantes 
15 frequentielles du spectre. C'est ce principe qui a permis de developper ce parametre, 

calcule simplement selon la formule : 

MinSpe - min(x,. ) pour 1 < i < N (13) 
avec Xi les N composantes du spectre X en dB (par calcul de 

20 distance). 

Dans le cas d'une utilisation avec reference, une comparaison 
simple, apres synchronisation des valeurs obtenues sur la reference et le signal 
degrade, n'est en general pas suffisante pour la detection des degradations. En effet, la 
variabilite des minima obtenus avec un signal non degrade est importante. 

II faut ainsi faire des comparaisons par blocs de M valeurs selon le 
principe suivant : Pour chaque bloc, il n'est conserve que le maximum des M minima 
obtenus sur la reference. Cela fournit une valeur de reference du niveau de bruit initial 
pour le bloc. Cette valeur est comparee aux M minima obtenus sur le signal degrade. 

En ne conservant que les instants ou les minima sont augmentes, il 
30 est possible de detecter les moments ou du bruit a et<§ ajoute au signal. 

La distance obtenue est ainsi, pour chaque instant t : 



d(t)=max 



max 
keM 



min k fx M 
ieN v . 



,0 



(14) 
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oil x r> i est la i*" 16 des N composantes du spectre obtenu sur la 

reference, 

x<i,i est la i ame des N composantes du spectre obtenu sur le signal 

5 degrade, 

et min k le k i6me des M minima du bloc considere. 

Si la reference n'est pas disponible, il est possible d ! utiliser une 
moyenne des minima du spectre obtenus pr<§c6demment par Talgorithme. Le reste de 
la comparaison se fait ensuite de la meme fa9on. 
10 De m§me que dans les cas precedents, l'utilisation des courbes de 

correspondance est possible en integrant les degradations d6tect£es par ce parametre 
aux autres et obtenir ainsi une mesure perceptuelle. 

La m&hode peut se resumer ainsi par les deux sch&nas suivants 

Figure 9. 

15 Encore une fois, le principal avantage de ces parametres est la 

possibility de faire des mesures sans reference. Un autre point interessant est le d6bit 
n^cessaire au transfert de la reference. Celui-ci permet de reduire la reference k 1 
nombre reel et meme 1 entier, soit un debit d'au plus 1,5 kbits/s pour N (par exemple 
1024) echantillons de signal. La complexity r£duite de l'algorithme est egalement un 

20 atout. 

Dans le procSde suivant, selon lequel on analyse l'Aplatissement 
Spectral, deux parametres, SFi et SF 2 , permettent d'estimer 'Taplatissement" du 
spectre, d'ou le terme parfois utilise d^'aplatissement statistique". lis correspondent a 
l'etude de la forme du spectre et a son evolution le long de la sequence Studiee. Lors 
25 de l'apparition d f un bruit large bande dans le signal, une composante continue de type 
bruit blanc provoquera un aplatissement du spectre. 
Parametre SFi 

Lors de l'apparition dune degradation, les composantes qui avaient 
des valeurs proches de z6ro, vont passer k des valeurs non nSgligeables. Le produit des 
30 composantes du spectre va ainsi fortement augmenter, alors que leur somme ne 
variera que tr£s peu. Pour exploiter ceci, le parametre ^estimation de l'aplatissement 
du spectre SFi est calcule selon la formule suivante : 



20 
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= 10.1oel0 

1 ' 6 [MoyenneGeometnque(X) J 



1 N 



(15) 



10 



15 



avec X, le spectre du signal et x* les composantes du spectre. 

Ce parametre est calculi de la meme maniere sur la reference et sur 
le signal degrade. Par comparaison il est ensuite possible d'estimer le niveau de bruit 
blanc ins£r6, et par suite les degradations. 

Parametre SF 2 

Pour calculer ce parametre, le coefficient d f aplatissement statistique, 
appele "kurtosis" ou "concentration" a 6t6 utilise. L'estimation est faite a partir des 
moments centres d'ordre 2 et 4. lis permettent d'estimer la forme du spectre par 
rapport a une distribution normale au sens statistique du terme. 

Le calcul correspond au rapport entre le moment centre d'ordre 4 et 
le moment centre d'ordre 2 (variance) au carre des coefficients du spectre. La formule 
utilisee est ainsi la suivante : 



SFo = 



m 4 (X) m 4 (X) 



m 2 2 (X) 



= N. 



(16) 



avec moments centres d&finis par : 



m k = 



1=1 

N 



(17) 



ou X est la moyenne arithmetique des N composantes Xj du spectre X en dB. 



De meme que pour le parametre SF X , plus la valeur obtenue est 
25 importante, plus le signal est concentre et moins il y a de bruit dans le signal. Celui-ci 
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est calcule sur la reference et sur le signal degrade. Par comparaison le niveau de bruit 

blanc ins6r6 est estime. 

Le schema de la Figure 10 presente le principe (valable pour les 

deux parametres ci-dessus) : 

5 Dans le cas d'une comparaison avec la reference, une simple 

distance du type difference ou autre est suffisante pour detecter les degradations. Si 
aucune reference n'est disponible, il est necessaire d'effectuer une detection des pics 
dans la variation des parametres pour rechercher les degradations. Cela peut etre fait 
en utilisant la technique, classique en fakement de l'image, de la morphologje 

10 mathematique a niveau de gris (erosions et dilatations). 

Les avantages et limitations de ces parametres sont identiques a ceux 
des parametres precedents : debit necessaire limite, sans reference possible et 
utilisation des courbes de correspondance pour estimer 1'importance perceptuelle des 
degradations. 

15 Dans le cadre de la surveillance d'un reseau de diffusion en 

television numerique, le signal audio de reference correspond au signal a l'entree du 
reseau de diffusion. Les parametres de reference sont calcules sur ce signal, puis 
transmis via une voie de donnee specifique, jusqu'au point de mesure souhaite. C'est a 
ce point que sont calcules les m6me parametres necessaires a la comparaison pour 

20 l'etablissement des mesures avec reference reduite. Les mesures sans reference sont 
egalement calcuiees. Dans le cas ou les parametres de reference ne seraient pas 
disponibles (non presents, errones, ...) ces mesures sont suffisantes pour detecter les 
erreurs les plus importantes. Les sous-systemes en pointilles de la Figure 11 ne sont 
alors plus utilises. 

25 Les mesures obtenues sans reference et celles obtenues avec 

reference reduite (dans le cas ou elles ont pu etre calcuiees) sont utilisees par un 
modele pour estimer 1'importance de la degradation introduite lors de la diffusion. 

Le schema de la Figure 1 1 resume cet exemple de realisation : 
Plusieurs points de mesure peuvent ainsi etre etablis. Une fois ces 
30 estimations de degradations obtenues, il est aise de les transmettre vers un centre de 
surveillance du reseau, ce qui permet d'avoir une vue d'ensemble des performances du 
reseau. 

Le menie schema que precedemment peut dtre utilise pour visualiser 
(avec ou sans reference) les performances de la diffusion de radios sur Internet. Dans 
35 ce cas, la voie de donnee utilisee pour transporter les parametres de reference peut 6tre 
le reseau lui-m6me, tout comme pour renvoyer les notes estimees au centre de 
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surveillance. Le signal de reference correspond au signal envoye par le serveur, et le 
signal degrade est celui decode au point de mesure choisi. Cela peut par exemple 
servir a choisir le serveur le plus approprie en fonction du lieu de connexion en 
accedant aux donnees d'un centre de surveillance. Le schema (Figure 12) suivant 

5 illustre ce mode de realisation dans le cas ou les parametres de reference sont envoy^s 
par le reseau et ou les notes obtenues utilisent une voie de transmission specifique. 

Un procede selon 1'invention est applicable a chaque fois qu'il est 
necessaire d'identifler des defauts sur un signal audio qui a ete transmis par un reseau 
de diffusion quelconque (cable, satellite, hertzien, Internet, DVB, DAB, ...). 

10 Le proceed propose exploite deux classes de methodes : les 

techniques avec reference reduite et celles sans reference. II est particulierement 
interessant lorsque le debit disponible pour la transmission de la reference est limite. 

Ainsi, cette invention est applicable a des fins d' exploitation pour les 
equipements de metrologie et pour les systemes de supervision des reseaux de 

15 distribution des signaux audio. Une de ses caracteristiques avantageuses reside dans 
l'association des mesures effectuees avec et sans reference. Enfin, cette invention 
correspond aux besoins imposes dans les systemes de gestion de la qualite de service. 
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REVINDICATIONS 

1. Procede devaluation qualitative d'un signal audio numerique, 
caracterise en ce qu'il met en oeuvre en temps reel et en temps continu dans des 
fenetres temporelles successives, le calcul d'un indicateur de qualite obtenu 

5 uniquement a partir dudit signal audionumerique et qui est constitu6 par un vecteur 
associe a chaque fendtre temporelle. 

2. Procede selon la revendication 1, caracterise en ce que ledit 
vecteur a une dimension au moins cent fois inferieure au nombre d'echantillons audio 
d'une fengtre temporelle, cette dimension etant par exemple comprise entre 1 et 10 et 

10 de preference entre 1 et 5, et plus particulierement entre 2 et 5. 

3. Procede selon une des revendications 1 ou 2, caracterise en ce que 
la generation d'vm dit vecteur indicateur de qualite met en ceuvre pour un signal audio 
de reference et pour le signal audio a evaluer, les etapes suivantes : 

a) calculer pour chaque fenetre temporelle la densite spectrale de 
15 puissance du signal audio et lui appliquer un filtre representatif de 1' attenuation de 

l'oreille interne et moyenne pour obtenir une densite spectrale filtree, 

b) calculer a partir de la densite spectrale filtree les excitations 
individuelles a l'aide de la fonction d'etalement frequentiel dans l'echelle basilaire, 

c) determiner k partir desdites excitations individuelles la sonie 
20 compressee a l'aide d'ime fonction modeiisant la sensibilite non lineaire en frequence 

de l'oreille, pour obtenir des composantes basilaires, 

d) separer les composantes basilaires en classes, de preference en 
trois classes, et calculer pour chaque classe un nombre C representant la somme des 
frequences de cette classe, ledit vecteur etant constitue par lesdits nombres C, 

25 e) calculer une distance entre les vecteurs du signal audio de 

reference et du signal audio a evaluer associes a chaque fenetre temporelle pour 
realiser une evaluation de la degradation du signal audio. 

4. Procede selon une des revendications 1 ou 2, caracterise en ce que 
la generation d'un dit vecteur indicateur de qualite met en oeuvre, pour le signal audio 

30 de reference et pour le signal audio k evaluer, les etapes suivantes : 

a) calculer N coefficients d'un filtre de prediction par une 
modeiisation autoregressive, 

b) determiner dans chaque fenetre temporelle le maximum du residu 
par difference entre le signal predit k l'aide du filtre de prediction et le signal audio, 

35 ledit maximum du residu de prediction constituant ledit vecteur indicateur de qualite, 
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c) calculer une distance entre lesdits vecteurs du signal audio de 
reference et du signal audio a evaluer associes a chaque fenetre temporelle pour 
r6aliser une dite Evaluation de la degradation du signal audio. 

5. Precede selon la revendication 1, caracterise en ce que la 
5 generation d'un dit vecteur indicateur de qualite met en oeuvre pour le signal audio de 
reference et pour le signal audio a evaluer, les etapes suivantes : 

a) calculer pour chaque fenetre temporelle la densite spectrale de 
puissance du signal audio et lui appliquer un filtre representatif de l'attenuation de 
l'oreille interne et moyenne, pour obtenir une fonction d'etalement frequentiel dans 

10 rechelle basilaire, 

b) calculer des excitations individuelles a partir de la fonction 

d'etalement frequentiel dans rechelle basilaire, 

c) obtenir a partir desdites excitations individuelles la sonie 
compressee a partir d'une fonction modeiisant la sensibilite non lineaire en frequence 

15 de l'oreille, pour obtenir des composantes basilaires , 

d) calculer a partir desdits composantes basilaires N' coefficients de 
prediction d'un filtre de prediction par une modeiisation auto-regressive, 

e) generer pour chaque fenetre temporelle un dit vecteur indicateur 
de qualite a partir de certains seulement des N' coefficients de prediction. 

20 6. Procede selon la revendication 5, caracterise en ce que le vecteur 

indicateur de qualite comporte entre 5 et 10 desdits coefficients de prediction. 

7. Precede selon la revendication 1, caracterise en ce que la 
generation d'un dit vecteur indicateur de qualite met en oeuvre au moins pour le signal 
audio a evaluer les etapes suivantes : 

25 a) calcul d'une activite temporelle du signal dans chaque fenetre 

temporelle, 

b) calculer une moyenne glissante sur Ni valeurs successives de 

F activite temporelle, 

c) conserver la valeur minimale parmi Mi valeurs successives de la 

30 moyenne glissante. 

8. Precede selon la revendication 7, caracterise en ce que ledit 
vecteur indicateur de qualite est constitue par ladite valeur minimale. 

9. Precede selon la revendication 7, caracterise en ce que ledit 
vecteur indicateur de qualite est constitue par une valeur binaire resultant de la 

35 comparaison de ladite valeur minimale avec un seuil donne. 
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10. Procede selon une des revendications 7 a 9, caracterise en ce 
qu'il met en oeuvre le calcul d'une note de quality en determinant un intervalle de 
temps cumuie pendant lequel ladite valeur minimale est inferieure a un seuil donne Si 
et/ou en determinant le nombre de fois par seconde oil ladite valeur minimale est 

5 inferieure k un seuil donne S r i. 

11. Procede selon une des revendications 7 a 10, caracterise en ce 
que lesdites valeurs minimales sont generees a la fois pour le signal audio de reference 
et pour le signal audio a evaluer et en ce qu'un vecteur de quality est gen^re par 
comparaison entre les valeurs minimales correspondantes du signal audio de reference 

10 et du signal audio h evaluer. 

12. Procede selon la revendication 1, caracterise en ce que la 
generation d'un dit vecteur indicateur de qualite met en oeuvre au moins pour le signal 
audio a evaluer les etapes suivantes : 

f) calculer une activite temporelle du signal dans chaque fenetre 

15 temporelle, 

g) calculer une moyenne glissante sur N2 valeurs successives de 
F activite temporelle, 

h) conserver la valeur maximale parmi M 2 valeurs successives de 
la moyenne glissante. 

20 13. Procede selon la revendication 12, caracterise en ce que ledit 

vecteur indicateur de qualite est constitue par ladite valeur maximale. 

14. Procede selon la revendication 12, caracterise en ce que ledit 
vecteur indicateur de qualite est constitue par une valeur binaire resultant de la 
comparaison de ladite valeur maximale avec un seuil donne S2. 

25 15. Procede selon la revendication 12, caracterise en ce qu'un 

vecteur indicateur de degradation est ge^re par comparaison entre la valeur maximale 
obtenue sur le signal audio de reference et la valeur maximale correspondante obtenue 
sur le signal audio a evaluer. 

16. Procede selon la revendication 1, caracterise en ce que le 

30 generateur d'un dit vecteur indicateur de qualite met en oeuvre au moins pour le signal 
audio a evaluer le calcul de la transformee de Fourier dans des blocs successifs de N3 
echantillons constituant desdites fenetres temporelles et calculer la valeur du 
minimum du spectre dans M3 blocs successifs, ladite valeur du minimum du spectre 
constituant un vecteur indicateur de qualite. 

35 17. Procede selon la revendication 16, caracterise en ce qu'il 

comporte une etape devaluation de Fintroduction de bruit dans le signal audio a 
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^valuer en comparant la valeur dudit minimum du spectre dans M 3 blocs successifs 
associ£ au signal audio transmis avec la valeur maximale des M 3 minima obtenues 
dans les M 3 memes blocs successifs associes au signal audio de reference. 

18. Procede selon la revendication 16, caract<§ris£ en ce qu'il 
comporte une £tape d' evaluation de Introduction de bruit dans le signal audio a 
evaluer en comparant la valeur dudit minimum du spectre dans M 3 blocs successifs 
avec une valeur moyenne des minima du spectre obtenus dans des blocs ant£rieurs 
auxdits M 3 blocs successifs. 

19. Precede selon la revendication 1, caract&ise en ce qu'il met en 
oeuvre au moins pour le signal audio a evaluer le calcul d'un dit vecteur indicateur de 
qualite constitue par d'un param&re d'aplatissement du spectre qui est le rapport entre 
une moyenne arithmetique et une moyenne geometrique des composantes du spectre 
du signal. 

20. Proc<5de selon la revendication 19, caracterise en ce qu'il met en 
ceuvre un indicateur de detection d'une degradation du signal audio par introduction 
d'un bruit large bande en comparant ledit parametre d'aplatissement du spectre entre 
le signal audio de reference et le signal audio a evaluer. 

21. Procede selon une des revendications precedentes, caract£ris6 en 
ce que le signal audio a evaluer est un signal audio transmis numeriquement. 

22. Proced6 selon une des revendications precedentes, caract6ris£ en 
ce que le signal audio a ^valuer est un signal audio num£rique auquel a ete appliqu£ 
un codage num£rique. 

23. Procede selon la revendication 22, caracteris£ en ce que ledit 
codage numerique est un codage a reduction de debit. 
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